An oft-cited open problem of federated learning is the existence of data heterogeneity at the clients. One pathway to understanding the drastic accuracy drop in federated learning is by scrutinizing the behavior of the clients' deep models on data with different levels of "difficulty", which has been left unaddressed. In this paper, we investigate a different and rarely studied dimension of FL: ordered learning. Specifically, we aim to investigate how ordered learning principles can contribute to alleviating the heterogeneity effects in FL. We present theoretical analysis and conduct extensive empirical studies on the efficacy of orderings spanning three kinds of learning: curriculum, anti-curriculum, and random curriculum. We find that curriculum learning largely alleviates non-IIDness. Interestingly, the more disparate the data distributions across clients the more they benefit from ordered learning. We provide analysis explaining this phenomenon, specifically indicating how curriculum training appears to make the objective landscape progressively less convex, suggesting fast converging iterations at the beginning of the training procedure. We derive quantitative results of convergence for both convex and nonconvex objectives by modeling the curriculum training on federated devices as local SGD with locally biased stochastic gradients. Also, inspired by ordered learning, we propose a novel client selection technique that benefits from the real-world disparity in the clients. Our proposed approach to client selection has a synergic effect when applied together with ordered learning in FL.
translated by 谷歌翻译
聚集的联合学习(FL)已显示通过将客户分组为群集,从而产生有希望的结果。这在单独的客户群在其本地数据的分布方面有显着差异的情况下特别有效。现有的集群FL算法实质上是在试图将客户群体组合在一起,以便同一集群中的客户可以利用彼此的数据来更好地执行联合学习。但是,先前的群集FL算法试图在培训期间间接学习这些分布相似性,这可能会很耗时,因为可能需要许多回合的联合学习,直到群集的形成稳定为止。在本文中,我们提出了一种新的联合学习方法,该方法直接旨在通过分析客户数据子空间之间的主要角度来有效地识别客户之间的分布相似性。每个客户端都以单一的方式在其本地数据上应用截断的奇异值分解(SVD)步骤,以得出一小部分主向量,该量提供了一个签名,可简洁地捕获基础分布的主要特征。提供了一组主要的主向量,以便服务器可以直接识别客户端之间的分布相似性以形成簇。这是通过比较这些主要向量跨越的客户数据子空间之间主要角度的相似性来实现的。该方法提供了一个简单而有效的集群FL框架,该框架解决了广泛的数据异质性问题,而不是标签偏斜的更简单的非iids形式。我们的聚类FL方法还可以为非凸目标目标提供融合保证。我们的代码可在https://github.com/mmorafah/pacfl上找到。
translated by 谷歌翻译
Langevin-diffusion形式的随机微分方程已获得了最近的重大作用,这要归功于它们在贝叶斯采样算法中的基本作用和在机器学习中的优化。在后者中,它们是训练过度参数化模型中随机梯度流的概念模型。但是,文献通常假定电势的平滑度,其梯度是漂移项。然而,存在许多问题,对于潜在的功能并非不断差异,因此漂移并不是到处都是lipschitz的连续。在回归问题中,可靠的损失和整流的线性单位来说明这一点。在本文中,我们在适合机器学习设置的假设下展示了有关Langevin型随机差异夹杂物的流动和渐近特性的一些基本结果。特别是,我们显示了溶液的强烈存在,以及规范自由能功能的渐近最小化。
translated by 谷歌翻译
设置子模块目标函数的优化问题具有许多现实世界应用。在离散场景中,在可以选择同一项目的情况下,域通过设置到有界整数格的2元素概括。在这项工作中,我们考虑最大化界限整数晶格上的单调子模块功能的问题,受到基数约束。特别是,我们专注于最大化D​​R-SubsoDular函数,即在整数格中定义的函数,该函数展示递减返回属性。给定任何epsilon> 0,我们介绍了一种随机算法的概率保证o(1 - 1 / e-epsilon)近似,使用由Mirzasoleiman等人开发的随机贪婪算法启发的框架。然后,我们表明,在合成DR-IMODOOMULAL功能上,在整数晶格上应用我们的建议算法比替代方案快,包括将目标问题还原到集合域,然后应用于最快的已知的集合子态最大化算法。
translated by 谷歌翻译
了解通过随机梯度下降(SGD)训练的神经网络的特性是深度学习理论的核心。在这项工作中,我们采取了平均场景,并考虑通过SGD培训的双层Relu网络,以实现一个非变量正则化回归问题。我们的主要结果是SGD偏向于简单的解决方案:在收敛时,Relu网络实现输入的分段线性图,以及“结”点的数量 - 即,Relu网络估计器的切线变化的点数 - 在两个连续的训练输入之间最多三个。特别地,随着网络的神经元的数量,通过梯度流的解决方案捕获SGD动力学,并且在收敛时,重量的分布方法接近相关的自由能量的独特最小化器,其具有GIBBS形式。我们的主要技术贡献在于分析了这一最小化器产生的估计器:我们表明其第二阶段在各地消失,除了代表“结”要点的一些特定地点。我们还提供了经验证据,即我们的理论预测的不同可能发生与数据点不同的位置的结。
translated by 谷歌翻译